Telegram Group & Telegram Channel
Как использовать категориальные признаки в k-Means

Алгоритм k-Means плохо работает с категориальными признаками, потому что понятие среднего значения неприменимо к строковым значениям вроде «красный», «синий» или «зелёный».

🛠 Что можно сделать

📍 One-hot encoding — преобразуем каждую категорию в бинарный вектор. Это позволяет применить *k-Means*, но увеличивает размерность и может искажать расстояния.
📍 Label encoding — простой способ, но порядок присвоенных чисел может ввести модель в заблуждение (например, «cat» = 0, «dog» = 1, «elephant» = 2).
📍 Оба метода не гарантируют адекватную интерпретацию расстояний между категориями.

🔄 Альтернатива

Вместо k-Means для категориальных или смешанных данных лучше использовать:
📍 k-Modes — аналог k-Means, но для чисто категориальных признаков (использует моду вместо среднего).
📍 k-Prototypes — работает с числовыми и категориальными данными одновременно.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ds_interview_lib/965
Create:
Last Update:

Как использовать категориальные признаки в k-Means

Алгоритм k-Means плохо работает с категориальными признаками, потому что понятие среднего значения неприменимо к строковым значениям вроде «красный», «синий» или «зелёный».

🛠 Что можно сделать

📍 One-hot encoding — преобразуем каждую категорию в бинарный вектор. Это позволяет применить *k-Means*, но увеличивает размерность и может искажать расстояния.
📍 Label encoding — простой способ, но порядок присвоенных чисел может ввести модель в заблуждение (например, «cat» = 0, «dog» = 1, «elephant» = 2).
📍 Оба метода не гарантируют адекватную интерпретацию расстояний между категориями.

🔄 Альтернатива

Вместо k-Means для категориальных или смешанных данных лучше использовать:
📍 k-Modes — аналог k-Means, но для чисто категориальных признаков (использует моду вместо среднего).
📍 k-Prototypes — работает с числовыми и категориальными данными одновременно.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/965

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

Launched in 2013, Telegram allows users to broadcast messages to a following via “channels”, or create public and private groups that are simple for others to access. Users can also send and receive large data files, including text and zip files, directly via the app.The platform said it has more than 500m active users, and topped 1bn downloads in August, according to data from SensorTower.

Библиотека собеса по Data Science | вопросы с собеседований from it


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA